국가공인 데이터분석 전문가 (문단 편집)

=== 필기시험 ===
 * 데이터 이해: [[데이터]], [[SECI 모델]], DIKW 피라미드, [[데이터베이스]](DB), [[DBMS]], [[데이터 웨어하우스]](DW), [[전사적 자원관리]](ERP), [[고객 서비스|고객관계관리]](CRM), [[SCM|공급사슬관리]](SCM), 비즈니스 인텔리전스(BI), [[빅데이터]], [[데이터과학]], [[알고리즘]]
 * 데이터 분석 기획: 데이터 분석방법론, 분석과제 발굴 방법론, 분석 프로젝트 관리방안, 분석 마스터플랜 수립, 분석 거버넌스 수립, 데이터 거버넌스
 * 데이터 분석: [[데이터 마이닝]], [[R(프로그래밍 언어)|R]], 데이터마트(DM), 결측값, [[통계적 방법]], [[시계열 분석]], 다차원척도화(MDS), [[주성분 분석]](PCA), [[모델링]], [[혼동행렬]], [[리프트차트]], [[나이브 베이지안 알고리즘|나이브베이즈분류기]](NBC), [[서포트 벡터 머신]](SVM), K-최근접이웃(K-NN), 로지스틱 회귀분석, 의사결정나무, 앙상블분석, [[인공신경망]](ANN), [[딥러닝]], [[군집 분석|군집분석]], 연관분석

전반부에서 후반부로 진도가 나아가면서 [[경영정보학과|경영정보학]]→[[프로그래밍]]→[[통계학]] 순서로 학문적인 분위기가 바뀐다. 첫 단원에서 데이터과학의 영역을 분석 영역(통계학), IT 영역(프로그래밍), 비즈니스컨설팅 영역(경영정보학)으로 나눈 것에 대응된다고 할 수 있다.

맨 처음 단원인 '데이터 이해'는 언뜻 본격적인 공부거리를 소개하기 전에 워밍업하라는 느낌으로 마련된 것 같지만, 실제로는 가장 기출변형이 많고 낯선 문제들이 자주 튀어나와서 수험생들의 점수하락을 견인(?)하는 단원이다. 세계 굴지의 기업들이 데이터산업에 어떻게 뛰어들고 있고 어떤 발전과 논쟁이 있어 왔는지 배경지식이 풍부하다면 좀 더 수월하게 문제를 풀 수 있다. 공식 수험서에서도 이 단원은 유독 IT업계 신문사의 칼럼처럼 보이는 서술방식이 특징으로, 여기서 출제포인트가 무엇이고 문제가 어떻게 나온다는 건지 짐작하기가 쉽지 않다. 상식으로 읽기에는 재밌을지 몰라도 자격증을 목표로 공부하기 썩 좋은 대상들은 아니다.

'데이터 이해'의 중반부에서는 ERP나 BI 같은 약어들과 슬로건들이 사방에서 튀어나온다. 자신의 전공학과가 [[경영학]]이라면, 특히 그중에서도 경영정보학에 관심이 있다면 이 쪽으로는 굳이 더 공부할 것도 없을 만큼 학문적으로 겹쳐진다. 그래서 도서관에 꽂혀있는 《경영정보시스템》 같은 경영학 전공서들을 한두 권 빌려다가 읽는 것도 단원의 이해에 도움이 된다. 뿐만 아니라 채용시장에서도 DW나 DM 같은 것을 만들고 이해할 수 있는 IT 인재들은 수요가 굉장히 많다.

다음으로 '데이터 분석 기획'은 좀 더 경영학적이면서도 실무적인 부분으로 들어가는데, 실무에 대한 경험이 없다면 이걸 통째로 외워버려야 한다는 고충이 있다. 초반에 등장하는 KDD나 CRISP-DM, 빅데이터 DB 분석방법론의 경우 진짜로 디테일한 사항까지도 출제되기 때문. 여기서는 분석이라는 활동을 함에 있어서 결정해야 하는 여러 이슈들을 순서대로 다루고 있다. 분석을 어떻게 할 것인지, 분석할 대상은 어떻게 선정할 것인지, 분석 결과는 어떻게 평가할 것인지 같은 이슈들이 대표적이다. 또한 ADsP는 단 한 번의 분석례에 그치지 않고 그 분석을 제도화하는 것에 대해서도 물어본다. 즉 분석의 중장기적 마스터플랜을 세우는 방법, 여러 분석과제들 사이의 우선순위를 정하는 방법, 장기적으로 조직 내에서 데이터분석의 문화가 자리잡게 만드는 법, 분석데이터를 관리하는 방법, 분석조직을 수립하고 운영하는 방법 등이 여기에 포함된다. 굉장히 자세한 부분까지 나오는 데다가 쓰이는 단어가 다 비슷하기 때문에 정확한 암기가 필요하다. 다만 양은 그다지 많지 않은 편.

셋째 과목인 '데이터 분석'의 경우, 전반부에서는 R의 사용방법과 기본적인 문법, 함수, 패키지를 소개하는데 너무 깊이까지는 알 필요가 없고 가르치지도 않는다. 그래도 R 패키지 중에서 reshape, sqldf, plyr 같은 것들은 꽤나 자주 출제되는 편. 반복구문이나 조건문을 보고 결과가 어떻게 나올지를 예측할 수 있는지, 그리고 결측값을 처리하는 등의 기초적인 핸들링은 가능한지 정도를 물어본 후 곧바로 통계분석으로 넘어간다.

'데이터 분석'의 후반부에 해당하는 통계분석 파트는 많은 수험생들에게 심리적인 장벽 같은 느낌을 주지만, 의외로 기출변형이 드물고 문제의 난이도 자체도 쉽게 출제되는 편이기 때문에 한번 익숙해지면 안정적으로 점수확보가 가능한 파트이기도 하다. 사조사와 겹치는 기초통계학적인 내용을 가볍게 다룬 후 좀 더 복잡한 난이도의 분석을 소개하는데, [[주성분 분석]]은 꼭 1문제 정도씩은 쉬운 난이도로 출제되곤 하며 [[시계열 분석]]도 단골로 나오고 있다. 이후 [[데이터 마이닝]]이 소개되는데 분류분석(특히 의사결정나무)과 [[군집 분석|군집분석]]은 정말 각잡고 명확하게 익힐 필요가 있다.[* 꼭 자격증이 아니더라도, 이런 고급 분석방법론을 이해하지 못하면 이제는 시사뉴스 논쟁에도 참여하기 어려운 세상이 되고 있다. 예컨대 [[https://alook.so/posts/Zktnl6|이 논쟁]]의 경우에도 군집분석을 모르면 제대로 쟁점을 따라가기도 힘들지만, 사실 여기서 말하는 k-means 클러스터링은 군집분석에서 그냥 기초 중의 기초에 속한다.] 여기에 더해 [[인공신경망]]과 연관분석, 앙상블분석을 정리하면 된다. 통계학에 대해 조금이라도 아는 사람과 아예 모르는 사람 간에 차이가 큰 과목이다. 통계학을 조금이라도 했으면 앞부분의 기초 통계는 다시 안 읽어봐도 되거나 까먹은 부분만 읽으면 정도로 쉽게 나오기 때문에 뒤쪽의 고급 통계 분석만 공부해주면 되기 때문이다. 가끔 조건부확률, 혼동행렬(정확도, 특이도 등), 군집 연속형 거리개념(유클리드, 맨해튼 거리 등), 연관성 분석 간단한 계산 문제가 출제되는데 숫자나온다고 겁먹지 말고 꼭 맞히자. 개념만 알면 쉽게 풀리는 간단한 산수 문제이고 명확하게 답이 딱 떨어지기 때문에 정답을 판별하기 쉽기 때문이다. R로 도출된 회귀분석이나 상관분석 해석 문제도 방법만 알면 바로 정답이 눈에 보일 정도로 쉽게 출제되므로 이 문제도 꼭 맞힐 것.

이 단원에서도 전공서가 좋은 참고서가 된다. Tan, Steinbach, Karpatne, & Kumar(2019)의 《Introduction to Data Mining》 은 체계적이면서도 이해하기 쉽게 쓰인 전공서인데, 국내에도 번역서가 들어와 있기는 하지만 차마 추천하기 민망할 정도로 번역의 상태가 엉망이다. 영어가 된다면 차라리 원서를 보는 편이 더 나을 수도 있다. 가끔이지만 ADsP인데도 변별력 때문인지 꽤나 심도있는 데이터 마이닝 관련 문제가 출제되기도 하는데, 공식 수험서만으로는 풀 수 없겠지만 별도의 전공서로 함께 공부했던 수험생은 그것까지도 풀 수 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

국가공인 데이터분석 전문가 (문단 편집)

캡챠